Représentation temporelle des mots : application au clustering de micro-blogs
نویسندگان
چکیده
RÉSUMÉ. Les modèles distribués de mots sont un outil précieux pour la classification, le clustering, et plus généralement la représentation des documents. Pour des collections dynamiques, il est nécessaire de prendre en compte l’évolution temporelle de ces représentations. Dans cet article, nous présentons un modèle qui représente les mots sous la forme de trajectoires dans un espace de représentation, trajectoires qui sont déterminées par les groupes auxquels les mots appartiennent. Des expériences préliminaires en clustering sur des micro-blogs montrent l’intérêt de ce type de modèle.
منابع مشابه
Semantic Clustering using Bag-of-Bag-of-Features
RÉSUMÉ. Le calcul de distances entre représentations textuelles est au cœur de nombreuses applications du Traitement Automatique des Langues. Les approches standard initiallement développées pour la recherche d’information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d’attributs) avec des pondérations de type TF-IDF ou des...
متن کاملModélisation de Ressources Termino-Ontologiques en OWL
Résumé : Dans le cadre de recherches menées sur l’indexation sémantique, nous avons été conduits à nous interroger sur l’efficacité générale des modèles actuels de représentation des terminologies au sein des ontologies. Après avoir évoqué leurs limites actuelles, nous proposons un nouveau modèle pour manipuler une ressource termino-ontologique en OWL et nous en décrivons son implémentation pro...
متن کاملLa prise en compte de la dimension temporelle dans la classification de données
Résumé. Dans un contexte d’ingénierie de la connaissance, l’analyse des données relationnelles évolutives est une question centrale. La représentation de ce type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l’utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut alors les ...
متن کاملNew Word Vector Representation for Semantic Clustering
RÉSUMÉ. L’idée que nous défendons dans cet article est qu’il est possible d’obtenir des concepts sémantiques significatifs par des méthodes de classification automatique. Pour ce faire, nous commençons par proposer des mesures permettant de quantifier les relations sémantiques entre mots. Ensuite, nous utilisons les méthodes de classification non supervisée pour construire les concepts d’une ma...
متن کاملStratégies d'automédiation: de l'expression de soi au jeu des intersubjectivités : Etude de la représentation de l'usager dans Livejournal et Touchgraph
RÉSUMÉ. Acteur de sa présentation et de sa représentation en ligne, le diariste dessine les contours de son existence diégétique en élaborant une stratégie d’automédiation. La représentation de soi est une création personnelle déterminée par l’interface et les fonctionnalités du logiciel. Son usage manifeste des stratégies disparates, de l’épanchement solipsiste à la collection de tests et plai...
متن کامل